tg-me.com/opendatascience/2262
Last Update:
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
BY Data Science by ODS.ai 🦜
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
Share with your friend now:
tg-me.com/opendatascience/2262